ارائه ی یک مدل جهت دسته‌بندی متون فارسی با استفاده از ترکیب روش های دسته بندی

نویسندگان

  • ایمان جمالی گروه کامپیوتر، دانشگاه آزاد اسلامی واحد علوم و تحقیقات بوشهر، بوشهر، ایران
  • علی هارون آبادی عضو هیئت علمی دانشگاه آزاد اسلامی، واحد تهران مرکز، گروه مهندسی کامپیوتر
چکیده مقاله:

برای دسته­بندی متن از تکنیک­های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می شود به طور کلی هدف یک دسته بند متون، دسته­بندی اسناد در قالب تعداد معینی از دسته­های از پیش تعیین شده می­باشد. هر سند می تواند در یک، چند و یا هیچ دسته ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دسته­ها قرار می گیرد. این موضوع می تواند در قالب یک یادگیری خودکار قرار گیرد تا با استفاده از آن بتوان هر سند را به طور خودکار به دسته­ای نسبت داد . در این مقاله، بعد از انتخاب مجموعه داده و پاک­سازی متون  به کمک روش نرمال شده فرکانس کلمه- معکوس فرکانس سند (norm TF-IDF) به ویژگی­ها وزن داده می­شود و در طی دو مرحله ویژگی­ها با استفاده از روش­های فرکانس سند (DF) و مربع چی(SChi) انتخاب می­شوند و بعد با استفاده از روش تحلیل مؤلفه اصلی (PCA) ابعاد ویژگی­ها کاهش داده می­شود و در مرحله بعد با استفاده از ترکیب 21 ماشین بردار پشتیبان (SVM) به پیاده سازی مدل پیشنهادی می­پردازیم و در نهایت صحت مدل را با روش اعتبار سنجی 10 مرحله‌ای ارزیابی می­کنیم  نتایج تجربی نشان می­دهد که این مدل می­تواند عمل دسته­بندی متون را برای هفت دسته با صحت 91.86 انجام دهد که نسبت به کارهای پیشین انجام گرفته صحت بالاتری دارد.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

ارائه یک الگوریتم خوشه بندی برای داده های دسته ای با ترکیب معیارها

Clustering is one of the main techniques in data mining. Clustering is a process that classifies data set into groups. In clustering, the data in a cluster are the closest to each other and the data in two different clusters have the most difference. Clustering algorithms are divided into two categories according to the type of data: Clustering algorithms for numerical data and clustering algor...

متن کامل

دسته بندی پرسش ها با استفاده از ترکیب دسته بندها

هدف از تولید و گسترش سیستم های پرسش و پاسخ، ایجاد پاسخ دقیق برای پرسش داده شده به زبان طبیعی می باشد. یکی ازمهم ترین بخش های سیستم های پرسش و پاسخ دسته بندی پرسش است. عمل دسته بندی پرسش، پیش بینی نوع پاسخ مورد نیاز برای پرسش داده شده به زبان طبیعی می باشد. کارهای انجام شده در این زمینه را می توان در دو دسته ی مبتنی بر قانون و مبتنی بر یادگیری تقسیم کرد. در این مقاله برای دسته بندی پرسش ها، از ی...

متن کامل

پیشگویی پیوند در شبکه های اجتماعی با استفاده از ترکیب دسته بندی کننده ها

Abstract Link prediction in social networks is one of the most important activities in analysis of such networks. The importance of link prediction in social networks is due to its dynamic nature. While members and their relationships (links) in such networks are continuously increasing, links may be missed due to various reasons. By predicting such links, the possibility of extension, compl...

متن کامل

بهبود عملکرد دسته بندی متون و اسناد فارسی با استفاده از روش pca و ترکیب الگوریتم های جستجوی تکاملی

با وجود حجم بالای اطلاعات متنی، نیازمند سیستمی کارا جهت دسته بندی خودکار متون داریم. بنابراین، باید دسته بندی را طوری انجام داد که ضمن افزایش دقت، سبب کاهش زمان و هزینه شود. فرایند دسته بندی متون دارای گام‎های پیش پردازش، وزن دهی، کاهش ویژگی و دسته بندی است که برای هر گام روش‎های مختلفی تا کنون ارائه شده است. یکی از گام‎های تعیین کننده در دسته بندی، کاهش ویژگی‎ها است. این موضوع در زبان فارسی به...

ارائه یک الگوریتم خوشه بندی برای داده های دسته ای با ترکیب معیارها

خوشه بندی یکی از تکنیک های اصلی داده کاوی است. خوشه بندی فرایندی است که مجموعه داده ها را داخل گروه هایی طبقه بندی می کند. در خوشه بندی داده های موجود در یک خوشه بیشترین شباهت را به هم دارند و داده های موجود در دو خوشه متفاوت بیشترین تفاوت را با هم دارند. الگوریتم های خوشه بندی با توجه به نوع داده ها به دو دسته تقسیم می شوند: الگوریتم های خوشه بندی داده های عددی و الگوریتم های خوشه بندی داده ها...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


عنوان ژورنال

دوره 10  شماره 38

صفحات  -

تاریخ انتشار 2020-12-21

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023